Gini Index এবং Information Gain

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Decision Tree এবং Random Forest
256

Gini Index এবং Information Gain দুটি জনপ্রিয় হিউরিস্টিক ফিচার নির্বাচন এবং সিদ্ধান্ত গাছ (Decision Tree) নির্মাণের জন্য ব্যবহৃত মেট্রিক্স। এরা সিদ্ধান্ত গাছের নোডে বিভাজন (splitting) করার জন্য বিভিন্ন ফিচারের গুণগত মান নির্ধারণ করতে সাহায্য করে। এই মেট্রিক্সগুলির মাধ্যমে, মডেলটি শ্রেণীভেদে কতটা বৈচিত্র্য বা অনিশ্চয়তা রয়েছে তা নির্ধারণ করতে সক্ষম হয় এবং সিদ্ধান্ত নেওয়া হয় কিভাবে ডেটা বিভাজিত হবে।


1. Gini Index (গিনি ইনডেক্স)

Gini Index বা Gini Impurity একটি পরিমাপ যা মাপবে যে, কোন একটি সিদ্ধান্ত নোডে কতটুকু অস্বচ্ছতা (impurity) বা বৈচিত্র্য রয়েছে। এটি ডেটাকে সঠিকভাবে বিভক্ত করতে সাহায্য করে, যাতে সিদ্ধান্ত গাছের প্রতিটি শাখায় সম্ভবত কম বৈচিত্র্য থাকবে। গিনি ইনডেক্স হল একটি সংখ্যার মান যা 0 থেকে 1 এর মধ্যে থাকে:

  • 0 মানে, সম্পূর্ণভাবে বিশুদ্ধ (pure) বা একক শ্রেণী।
  • 1 মানে, সর্বোচ্চ বৈচিত্র্য বা একাধিক শ্রেণী।

গিনি ইনডেক্সের ফর্মুলা:

Gini=1i=1kpi2\text{Gini} = 1 - \sum_{i=1}^{k} p_i^2

এখানে, pip_i হলো ii-তম শ্রেণীর অনুপাত (probability) এবং kk হলো শ্রেণীগুলির সংখ্যা।

ব্যাখ্যা:

  • যদি কোনও নোডে সমস্ত ডেটা এক শ্রেণীতে থাকে, তবে গিনি ইনডেক্স হবে 0, কারণ ডেটা সম্পূর্ণভাবে বিশুদ্ধ।
  • যদি শ্রেণীগুলির মধ্যে সমানভাবে বিভক্ত থাকে, তবে গিনি ইনডেক্স হবে 0.5 (যেমন, দুইটি শ্রেণী সমান পরিমাণে বিভক্ত হলে)।

গিনি ইনডেক্সের উদাহরণ:

ধরা যাক, একটি নোডে 100টি উদাহরণ রয়েছে, যার মধ্যে 40টি "A" শ্রেণী এবং 60টি "B" শ্রেণী। এখানে, pA=0.4p_A = 0.4 এবং pB=0.6p_B = 0.6

Gini=1(0.42+0.62)=1(0.16+0.36)=10.52=0.48\text{Gini} = 1 - (0.4^2 + 0.6^2) = 1 - (0.16 + 0.36) = 1 - 0.52 = 0.48

গিনি ইনডেক্সের সুবিধা:

  • সহজে গণনা করা যায়।
  • ডেটার ক্লাস ভিত্তিক বৈচিত্র্য সহজেই পরিমাপ করা যায়।

2. Information Gain (ইনফরমেশন গেইন)

Information Gain হলো একটি পরিমাপ যা একটি নির্দিষ্ট বৈশিষ্ট্য বা ফিচারের মাধ্যমে ডেটাকে ভাগ করার পর কতটা তথ্য পাওয়া যাচ্ছে তা নির্ধারণ করে। এটি Entropy থেকে গণনা করা হয় এবং ডেটার বিভাজনের ক্ষেত্রে কতটা অনিশ্চয়তা হ্রাস পেয়েছে তা মাপার জন্য ব্যবহৃত হয়।

Entropy হলো একটি মাপ যা ডেটার অনিশ্চয়তা পরিমাপ করে। একে একটি ফিচার নির্বাচন করার জন্য গুণগত মান নির্ধারণের প্রক্রিয়া হিসাবে ব্যবহার করা হয়।

ইনফরমেশন গেইন ফর্মুলা:

Information Gain=Entropy(Parent)i(SiS)Entropy(Si)\text{Information Gain} = \text{Entropy(Parent)} - \sum_{i} \left( \frac{|S_i|}{|S|} \right) \text{Entropy}(S_i)

এখানে,

  • Entropy(Parent)\text{Entropy(Parent)} হলো মূল ডেটাসেটের এনট্রপি।
  • SiS_i হলো বিভাজিত সাব-ডেটাসেট।
  • SiS\frac{|S_i|}{|S|} হলো SiS_i-এর সাইজের অনুপাত।

Entropy এর ফর্মুলা:

Entropy(S)=i=1kpilog2pi\text{Entropy}(S) = - \sum_{i=1}^{k} p_i \log_2 p_i

এখানে, pip_i হলো ii-তম শ্রেণীর সম্ভাব্যতা (probability) এবং kk হলো শ্রেণীর সংখ্যা।

ব্যাখ্যা:

  • Information Gain উচ্চ হলে, তা নির্দেশ করে যে ডেটা বিভাজনটি বেশি কার্যকরী ছিল এবং অনিশ্চয়তা বা গুণগত বৈচিত্র্য কমেছে।
  • Information Gain কম হলে, এটি নির্দেশ করে যে বিভাজনটি তেমন কার্যকরী ছিল না এবং ডেটার বিভাজন করতে বেশি তথ্য পাওয়া যায়নি।

ইনফরমেশন গেইনের উদাহরণ:

ধরা যাক, একটি প্যারেন্ট নোডে 100টি উদাহরণ রয়েছে, যার মধ্যে 80টি "Yes" এবং 20টি "No" শ্রেণী। এখন, আমরা একটি বৈশিষ্ট্য ব্যবহার করে ডেটাকে দুটি ভাগে ভাগ করি:

  • গ্রুপ 1: 60টি "Yes", 10টি "No"।
  • গ্রুপ 2: 20টি "Yes", 10টি "No"।

এখন, আমরা প্রথমে প্যারেন্ট নোডের এনট্রপি গণনা করি:

Entropy(Parent)=(80100log280100+20100log220100)=0.72\text{Entropy(Parent)} = -\left(\frac{80}{100} \log_2 \frac{80}{100} + \frac{20}{100} \log_2 \frac{20}{100}\right) = 0.72

তারপর, দুইটি গ্রুপের জন্য এনট্রপি গণনা করা হয় এবং তাদের গড় গুনে যোগ করা হয়:

Entropy(Group 1)=(6070log26070+1070log21070)=0.59\text{Entropy(Group 1)} = -\left(\frac{60}{70} \log_2 \frac{60}{70} + \frac{10}{70} \log_2 \frac{10}{70}\right) = 0.59 Entropy(Group 2)=(2030log22030+1030log21030)=0.92\text{Entropy(Group 2)} = -\left(\frac{20}{30} \log_2 \frac{20}{30} + \frac{10}{30} \log_2 \frac{10}{30}\right) = 0.92

তাহলে, Information Gain হবে:

Information Gain=0.72(70100×0.59+30100×0.92)=0.720.68=0.04\text{Information Gain} = 0.72 - \left(\frac{70}{100} \times 0.59 + \frac{30}{100} \times 0.92\right) = 0.72 - 0.68 = 0.04

ইনফরমেশন গেইনের সুবিধা:

  • এটি শ্রেণীবিন্যাসের ক্ষেত্রে একটি শক্তিশালী এবং দক্ষ উপায়।
  • Decision Tree নির্মাণের জন্য কার্যকরী।

Gini Index এবং Information Gain এর তুলনা

বৈশিষ্ট্যGini IndexInformation Gain
প্রক্রিয়াডেটার বৈচিত্র্য বা অমেধা পরিমাপডেটার অনিশ্চয়তা বা তথ্য পরিমাপ
পরিমাণের পরিসীমা0 থেকে 1 পর্যন্ত0 থেকে 1 পর্যন্ত
সাধারণ ব্যবহারDecision Trees এর জন্য বিশেষত CART অ্যালগরিদমDecision Trees এর জন্য, বিশেষত ID3 এবং C4.5 অ্যালগরিদম
যতটা কম, ততটা ভালোহ্যাঁ, গিনি ইনডেক্স কম হলে ভালোহ্যাঁ, ইনফরমেশন গেইন বেশি হলে ভালো
অসুবিধাSometimes biased towards larger splitsSensitive to the number of splits in data

সারাংশ

  • Gini Index এবং Information Gain দুটি গুরুত্বপূর্ণ মেট্রিক্স যা Decision Tree নির্মাণে ব্যবহৃত হয়।
  • Gini Index ডেটার অমেধা পরিমাপ করে এবং Information Gain ডেটার বিভাজন থেকে তথ্য পাওয়ার পরিমাণ পরিমাপ করে।
  • উভয় মেট্রিক্সই মডেলকে ডেটাকে কার্যকরীভাবে ভাগ করতে সাহায্য করে এবং সঠিক সিদ্ধান্ত গ্রহণে গুরুত্বপূর্ণ ভূমিকা রাখে।
Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...